1
Tổng quan và Bức tranh tiến hóa kiến trúc
EvoClass-AI003Lecture 4
00:00

Tổng quan và Bức tranh tiến hóa kiến trúc

Chúng ta chuyển từ thành công nền tảng của AlexNet sang thời kỳ của các mạng nơ-ron sâu cực kỳ mạng nơ-ron tích chập (CNNs). Sự thay đổi này đòi hỏi những đổi mới kiến trúc sâu sắc để xử lý độ sâu cực lớn mà vẫn duy trì tính ổn định trong huấn luyện. Chúng ta sẽ phân tích ba kiến trúc then chốt—VGG, GoogLeNet (Inception), và ResNet—hiểu cách mỗi kiến trúc giải quyết các khía cạnh khác nhau của bài toán mở rộng quy mô, tạo nền tảng cho việc diễn giải mô hình một cách nghiêm ngặt ở phần sau của bài học này.

1. Tính đơn giản về cấu trúc: VGG

VGG đã giới thiệu phương pháp tối đa hóa độ sâu bằng cách sử dụng các kích thước bộ lọc nhỏ và cực kỳ đồng nhất (chỉ có bộ lọc tích chập 3x3 được chồng lên nhau). Mặc dù tốn kém về mặt tính toán, nhưng sự đồng nhất về cấu trúc của nó đã chứng minh rằng độ sâu thực tế, đạt được nhờ sự thay đổi kiến trúc tối thiểu, chính là yếu tố chủ chốt thúc đẩy cải thiện hiệu suất, củng cố tầm quan trọng của các trường nhận diện nhỏ.

2. Hiệu quả tính toán: GoogLeNet (Inception)

GoogLeNet đã khắc phục chi phí tính toán cao của VGG bằng cách ưu tiên hiệu quả và trích xuất đặc trưng đa quy mô. Đột phá cốt lõi là module Inception, thực hiện các phép tích chập song song (1x1, 3x3, 5x5) và trích xuất đặc trưng. Quan trọng nhất, nó sử dụng tích chập 1x1 như là các điểm nghẽn để giảm mạnh số lượng tham số và độ phức tạp tính toán trước các thao tác tốn kém.

Thách thức kỹ thuật then chốt
Question 1
Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?
AlexNet
VGG
GoogLeNet
ResNet
Question 2
The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?
Increasing feature map resolution
Non-linear activation
Dimensionality reduction (bottleneck)
Spatial attention
Critical Challenge: Vanishing Gradients
Engineering Solutions for Optimization
Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.
Q1
Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.
Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.